智能论文笔记

Robust walking based on MPC with viability guarantees

Mohammad Hasan Yeganegi , Majid Khadiv , Andrea Del Prete , S. Ali A. Moosavian , Ludovic Righetti

分类：机器人

2020-10-09

模型预测控制（MPC）表明了控制诸如腿机器人等复杂系统的巨大成功。然而，在关闭循环时，在每个控制周期解决的有限范围最佳控制问题（OCP）的性能和可行性不再保证。这是由于模型差异，低级控制器，不确定性和传感器噪声的影响。为了解决这些问题，我们提出了一种修改版本，该版本的标准MPC方法用于带有活力的腿运动（弱向不变性）保证。在这种方法中，代替向问题添加（保守）终端约束，我们建议使用投影到在每个控制周期的OCP中的可行性内核中投影的测量状态。此外，我们使用过去的实验数据来找到最佳成本重量，该重量测量性能，约束满足鲁棒性或稳定性（不变性）的组合。这些可解释的成本衡量了稳健性和性能之间的贸易。为此目的，我们使用贝叶斯优化（BO）系统地设计实验，有助于有效地收集数据以了解导致强大性能的成本函数。我们的模拟结果具有不同的现实干扰（即外部推动，未铭出的执行器动态和计算延迟）表明了我们为人形机器人创造了强大的控制器的方法的有效性。

translated by 谷歌翻译

MONAI: An open-source framework for deep learning in healthcare

M. Jorge Cardoso , Wenqi Li , Richard Brown , Nic Ma , Eric Kerfoot , Yiheng Wang , Benjamin Murrey , Andriy Myronenko , Can Zhao , Dong Yang

分类：机器学习 | 人工智能 | 计算机视觉

2022-11-04

Artificial Intelligence (AI) is having a tremendous impact across most areas of science. Applications of AI in healthcare have the potential to improve our ability to detect, diagnose, prognose, and intervene on human disease. For AI models to be used clinically, they need to be made safe, reproducible and robust, and the underlying software framework must be aware of the particularities (e.g. geometry, physiology, physics) of medical data being processed. This work introduces MONAI, a freely available, community-supported, and consortium-led PyTorch-based framework for deep learning in healthcare. MONAI extends PyTorch to support medical data, with a particular focus on imaging, and provide purpose-specific AI model architectures, transformations and utilities that streamline the development and deployment of medical AI models. MONAI follows best practices for software-development, providing an easy-to-use, robust, well-documented, and well-tested software framework. MONAI preserves the simple, additive, and compositional approach of its underlying PyTorch libraries. MONAI is being used by and receiving contributions from research, clinical and industrial teams from around the world, who are pursuing applications spanning nearly every aspect of healthcare.

translated by 谷歌翻译

An End-to-End OCR Framework for Robust Arabic-Handwriting Recognition using a Novel Transformers-based Model and an Innovative 270 Million-Words Multi-Font Corpus of Classical Arabic with Diacritics

Aly Mostafa , Omar Mohamed , Ali Ashraf , Ahmed Elbehery , Salma Jamal , Anas Salah , Amr S. Ghoneim

分类：计算机视觉 | 自然语言处理 | 机器学习

2022-08-20

这项研究是有关阿拉伯历史文档的光学特征识别（OCR）的一系列研究的第二阶段，并研究了不同的建模程序如何与问题相互作用。第一项研究研究了变压器对我们定制的阿拉伯数据集的影响。首次研究的弊端之一是训练数据的规模，由于缺乏资源，我们的3000万张图像中仅15000张图像。另外，我们添加了一个图像增强层，时间和空间优化和后校正层，以帮助该模型预测正确的上下文。值得注意的是，我们提出了一种使用视觉变压器作为编码器的端到端文本识别方法，即BEIT和Vanilla Transformer作为解码器，消除了CNNs以进行特征提取并降低模型的复杂性。实验表明，我们的端到端模型优于卷积骨架。该模型的CER为4.46％。

translated by 谷歌翻译

A Novel Resource Allocation for Anti-jamming in Cognitive-UAVs: an Active Inference Approach

Ali Krayani , Atm S. Alam , Lucio Marcenaro , Arumugam Nallanathan , Carlo Regazzoni

分类：机器学习 | 人工智能

2022-08-10

这项工作提出了一种新型的资源分配策略，用于使用主动推断（$ \ textit {ain} $）在认知无线电中进行抗束缚，并采用了认知-UAV作为案例研究。提出了一个主动的广义动态贝叶斯网络（Active-GDBN），以代表共同编码物理信号动力学的外部环境以及频谱中无人机和干扰器之间的动态相互作用。我们将动作和计划作为贝叶斯推论问题进行了策划，可以通过避免在线学习期间（最小化异常）来解决。仿真结果验证了提出的$ \ textit {ain} $方法在最小化异常（最大化奖励）方面的有效性，并通过将其与常规的频率跳跃和Q学习进行比较，具有高收敛速度。

translated by 谷歌翻译

Inconsistencies in Measuring Student Engagement in Virtual Learning -- A Critical Review

Shehroz S. Khan , Ali Abedi , Tracey Colella

分类：计算机视觉

2022-08-09

近年来，虚拟学习已成为传统课堂教学的替代方法。学生参与虚拟学习可能会对满足学习目标和计划辍学风险产生重大影响。在虚拟学习环境中，有许多专门针对学生参与度（SE）的测量工具。在这项关键综述中，我们分析了这些作品，并从不同的参与定义和测量量表上突出了不一致之处。现有研究人员之间的这种多样性在比较不同的注释和构建可推广的预测模型时可能会出现问题。我们进一步讨论了有关参与注释和设计缺陷的问题。我们根据我们定义的七个参与注释的七个维度分析现有的SE注释量表，包括来源，用于注释的数据模式，注释发生的时间，注释发生的时间段，抽象，组合和组合水平的时间段，定量。令人惊讶的发现之一是，在SE测量中，很少有审查的数据集使用了现有的精神法法学验证量表中的注释中。最后，我们讨论了除虚拟学习以外的其他一些范围，这些量表具有用于测量虚拟学习中SE的潜力。

translated by 谷歌翻译

Masader Plus: A New Interface for Exploring +500 Arabic NLP Datasets

Yousef Altaher , Ali Fadel , Mazen Alotaibi , Mazen Alyazidi , Mishari Al-Mutairi , Mutlaq Aldhbuiub , Abdulrahman Mosaibah , Abdelrahman Rezk , Abdulrazzaq Alhendi , Mazen Abo Shal

分类：自然语言处理

2022-08-01

Masader（Alyafeai等，2021）创建了一种元数据结构，用于分类阿拉伯NLP数据集。但是，开发一种简单的方法来探索这种目录是一项艰巨的任务。为了为探索目录的用户和研究人员提供最佳体验，必须解决一些设计和用户体验的挑战。此外，用户与网站的交互可能提供了一种简单的方法来改善目录。在本文中，我们介绍了Masader Plus，该网络接口供用户浏览masader。我们演示了数据探索，过滤和简单的API，该API允许用户从后端检查数据集。可以使用此链接https://arbml.github.io/masader探索masader plus。可以在此处找到的视频录制说明界面的录制https://www.youtube.com/watch?v=setDlseqchk。

translated by 谷歌翻译

Monkeypox Skin Lesion Detection Using Deep Learning Models: A Feasibility Study

Shams Nafisa Ali , Md. Tazuddin Ahmed , Joydip Paul , Tasnim Jahan , S. M. Sakeef Sani , Nawsabah Noor , Taufiq Hasan

分类：计算机视觉 | 人工智能

2022-07-06

由于其在非洲以外的40多个国家 /地区的迅速传播，最近的蒙基托克斯爆发已成为公共卫生问题。由于与水痘和麻疹的相似之处，蒙基托斯在早期的临床诊断是具有挑战性的。如果不容易获得验证性聚合酶链反应（PCR）测试，那么计算机辅助检测蒙基氧基病变可能对可疑病例的监视和快速鉴定有益。只要有足够的训练示例，深度学习方法在自动检测皮肤病变中有效。但是，截至目前，此类数据集尚未用于猴蛋白酶疾病。在当前的研究中，我们首先开发``Monkeypox皮肤病变数据集（MSLD）。用于增加样本量，并建立了3倍的交叉验证实验。在下一步中，采用了几种预训练的深度学习模型，即VGG-16，Resnet50和InceptionV3用于对Monkeypox和Monkeypox和Monkeypox和其他疾病。还开发了三种型号的合奏。RESNET50达到了82.96美元（\ pm4.57 \％）$的最佳总体准确性，而VGG16和整体系统的准确性达到了81.48美元（\ pm6.87 \％）$和$ 79.26（\ pm1.05 \％）$。还开发了一个原型网络应用程序作为在线蒙基蛋白筛选工具。虽然该有限数据集的初始结果是有希望的，但需要更大的人口统计学多样化的数据集来进一步增强性增强性。这些的普遍性楷模。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

Fast variable selection makes Karhunen-Loève decomposed Gaussian process BSS-ANOVA a speedy and accurate choice for dynamic systems identification

David S. Mebane , Kyle Hayes , Ali Baheri

分类：机器学习 | (统计)机器学习

2022-05-26

可伸缩GP的许多方法都集中在使用数据子集作为诱导点。另一个有前途的方法是Karhunen-lo \'EVE（KL）分解，其中GP内核由一组基础函数表示，这些函数是内核操作员的特征函数。这样的内核有可能非常快，并且不依赖于选择减少的诱导点的选择。但是，KL分解导致高维度，因此变量选择变得至关重要。本文报告了一种新的前向变量选择方法，该方法由贝叶斯平滑样条链条方差分析核（BSS-Anova）的KL扩展中的基础函数的有序性质启用，并在完全贝叶斯方法中与快速的Gibbs采样。新算法确定了包括条款的订单应达到的高度，使用$ l^0 $惩罚在贝叶斯和Akaike信息标准中固定的模型复杂度平衡。推理速度和准确性使该方法通过将动态系统中的导数建模为静态问题，然后使用高阶方案集成学习动力学，从而使该方法特别有用。这些方法在两个动态数据集上进行了证明：一个“易感性，感染，回收”的玩具问题，以及用作强迫函数的传递性以及实验性的“级联罐”基准数据集。对衍生物的静态预测进行比较是用随机森林（RF），残留神经网络（RESNET）和正交添加剂（OAK）诱导可伸缩GP进行的，而对于时间表的预测比较，则与LSTM和GRU进行比较复发性神经网络（RNN）。

translated by 谷歌翻译

From data to functa: Your data point is a function and you can treat it like one

Emilien Dupont , Hyunjik Kim , S. M. Ali Eslami , Danilo Rezende , Dan Rosenbaum

分类：机器学习

2022-01-28

It is common practice in deep learning to represent a measurement of the world on a discrete grid, e.g. a 2D grid of pixels. However, the underlying signal represented by these measurements is often continuous, e.g. the scene depicted in an image. A powerful continuous alternative is then to represent these measurements using an implicit neural representation, a neural function trained to output the appropriate measurement value for any input spatial location. In this paper, we take this idea to its next level: what would it take to perform deep learning on these functions instead, treating them as data? In this context we refer to the data as functa, and propose a framework for deep learning on functa. This view presents a number of challenges around efficient conversion from data to functa, compact representation of functa, and effectively solving downstream tasks on functa. We outline a recipe to overcome these challenges and apply it to a wide range of data modalities including images, 3D shapes, neural radiance fields (NeRF) and data on manifolds. We demonstrate that this approach has various compelling properties across data modalities, in particular on the canonical tasks of generative modeling, data imputation, novel view synthesis and classification. Code: https://github.com/deepmind/functa

translated by 谷歌翻译